VALL-E La nueva IA de microsoft que sintetiza audio

A estas alturas estoy seguro de que estás familiarizado con el mundo de la inteligencia artificial, de lo frenético de su avance, y de la tremenda penetración que está teniendo en nuestra sociedad, ¿verdad? Hoy te cuento cómo Microsoft le ha dado una vuelta de tuerca más al mundo de la inteligencia artificial con su proyecto: VALL-E. ¡Comenzamos!

Nuevas inteligencias artificiales

Hace algunos meses, te mostrábamos los diferentes tipos de inteligencias artificiales que existían en aquel entonces. Esas primeras inteligencias artificiales, hoy en día y a pesar de seguir existiendo, podría considerarse que se encuentran obsoletas, ya que, prácticamente, no son utilizadas. Al menos por la mayoría de usuarios.

Lo que ido sucediendo durante todo este tiempo, es que las IA han evolucionado a un ritmo endiablado, y se han convertido, en muchos casos, en herramientas tremendamente potentes y eficaces. Además, y cómo era de esperar, han surgido (y surgirán) nuevas Inteligencias Artificiales, con más capacidad de trabajo, y orientadas a otras diferentes tareas.

Hoy vengo a hablarte de un nuevo proyecto que lleva algunos años de desarrollo que comienza a ver la luz. Una nueva IA qué a mí, personalmente, me ha impresionado mucho, por su capacidad actual, y por lo que puede suponer a futuro en el área del entretenimiento, entre otros.

Una Inteligencia Artificial es un conjunto de algoritmos capaces de imitar al ser humano en la realización de algunas tareas y procesos complejos, realizándolos de forma más rápida y eficiente.

VALL-E, la nueva inteligencia artificial de Microsoft

En los últimos días, ha salido a la luz el proyecto de inteligencia artificial en que lleva trabajando Microsoft. Los desarrolladores de Redmond llevan desarrollando una nueva IA desde hace algunos años, y ahora han decidido mostrarla al mundo, dejando boquiabiertos a todo el mundo que ha conocido su capacidad actual, y sobre todo, su potencial futuro. La nueva creación de Microsoft ha sido bautizada como VALL-E.

VALL-E es una IA que permite a los usuarios crear una muestra de audio personalizado, imitando el tono y sentimiento de la muestra. Y lo hace de una forma realmente fascinante, ya que tan solo necesitará que le aportes una muestra de voz de 3 segundos. La nueva tecnología desarrollada por Microsoft se basa en el aprendizaje automático para proporcionar resultados de alta calidad. Y realmente el resultado es impresionante. Créeme si te digo que te costará mucho apreciar diferencias entre la muestra de audio que aportes a VALL-E, y el audio que posteriormente la IA generará. Si quieres comprobarlo, en la web del proyecto podrás comprobar el funcionamiento de VALL-E.

Con esta nueva inteligencia artificial se abre un mundo de posibilidades. Se me ocurre, por ejemplo, que podríamos volver a escuchar la voz del gran Constantino Romero en alguna película. ¿Quién diría que no a algo así? Es cierto que posteriormente habría que debatir sobre si se vulnera, o no, la propiedad intelectual de este actor, por desgracia, ya fallecido. También se dará el caso, por desgracia, que saldrán los siempre incómodos y ocurrentes estafadores a aprovecharse de esta tecnología para fines de poca o nula legalidad.

Otra de las opciones interesantes a futuro, es la posibilidad de unir VALL-E y ChatGPT. De sobra es conocida la capacidad de ChatGPT para generar contenido original con tan solo algunas instrucciones básicas. Por eso, uniendo estas dos tecnologías, se podrían perfectamente recrear opiniones, conversaciones, etc. Incluso, por qué no, el día de mañana se podría utilizar VALL-E junto a otra inteligencia artificial que sea capaz de generar una base musical según nuestras indicaciones. Suena apasionante, ¿verdad?

¿Cómo ha sido creada VALL-E?

VALL-E ha sido desarrollada a través de una tecnología bastante depurada en la actualidad llamada TTS «Text to Speech«. El equipo de desarrollo de Microsoft se valió de diferentes audiolibros y pódcast extraídos de internet (en inglés de momento) de licencia gratuita. En total se han empleado más de 60.000 horas de audio para “enseñar y formar” a la inteligencia artificial.

El fruto del trabajo de “alimentar” a VALL-E con tantas y tantas horas de audio, es que la IA, ahora, es plenamente capaz de generar contenido, imitando fielmente el tono y la emotividad de un ser humano. Esto, claramente, supera con creces las prestaciones de cualquier modelo actual de generación de voz a través de un texto.

Conclusión

Cómo verás continuamente en todos los medios de comunicación, la revolución de las inteligencias artificiales ha llegado, y está desplegando todo su potencial a un ritmo vertiginoso (¿alguien dijo SkyNet?).

Lo cierto es que en la actualidad ya puedes generar textos de calidad completamente originales, al igual que imágenes. Y ahora, con VALL-E, podrás generar audios completos con la voz que quieras… Es increíble, ¿verdad? ¿Tú qué opinas? ¡Te leo!

Cómo saber en qué tabla de una base de datos SQL se encuentra una columna específica
como crear numeros aleatorios js

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Índice